BiSS-Glossar Tool-Beschreibung Augenscheinvalidität

BiSS-Glossar Tool-Beschreibung

Augenscheinvalidität. (s. Inhaltsvalidität)

Auswertungsobjektivität. Auswertungsobjektivität bedeutet, dass einer bestimmten Antwort oder Verhaltensweise immer der gleiche Punkt- oder Leistungswert zugewiesen werden soll, unabhängig von der jeweils auswertenden Person. Wenn beispielsweise in einem Test zur Leseflüssigkeit zwei Kinder gleichen Alters einen Text gleich schnell und mit gleicher Fehlerzahl vorlesen, darf nicht das eine Kind einen höheren Punktwert für diese Leistung bekommen als das andere. Zur Wahrung der Auswertungsobjektivität sollten in einem diagnostischen Verfahren Auswertungsschablonen oder -blätter vorliegen oder bei offenen Fragen mögliche Antwortalternativen mit dafür zu vergebenden Punkten.

Diskriminante Validität. Die diskriminante Validität gehört zur Konstruktvalidität und gibt über einen statistischen Kennwert an, wie gut ein Testverfahren tatsächlich das misst, was es zu messen beansprucht und nicht etwas inhaltlich anderes. Zur Ermittlung der diskriminanten Validität wird der Zusammenhang zu anderen Testverfahren berechnet, die inhaltlich einen anderen Gültigkeitsbereich haben. Ein Test zur Sprachentwicklung sollte beispielsweise geringe Zusammenhänge zeigen zu einem Verfahren, das inhaltlich etwas anderes erfasst, wie Konzentration oder motorische Entwicklung (diskriminante Validität). Im Vergleich sollte der Zusammenhang zu Testverfahren, die inhaltlich Ähnliches messen höher ausfallen (konvergente Validität).

Durchführungsobjektivität. Die Durchführungsobjektivität bezieht sich darauf, dass ein Test oder Beobachtungsverfahren immer unter vergleichbaren Bedingungen stattfinden soll. Dies kann durch standardisierte Instruktionen oder standardisierte Beobachtungskategorien erzielt werden. Bekäme beispielsweise in einem Sprachentwicklungstest ein Kind instruktionswidrig mehr Hilfestellungen zu einer Aufgabe als ein anderes Kind und beide Kinder gelangen zum gleichen Ergebnis, wären die Ergebnisse aufgrund der mangelnden Durchführungsobjektivität nicht interpretierbar.

Effektstärke. Die Effektstärke ist ein statistisches Maß, das angibt, inwiefern der Unterschied zwischen zwei Messwerten praktisch bedeutsam ist. Die Effektstärke hilft zu beurteilen, ob ein Unterschied zwischen zwei Mittelwerten, der statistisch signifikant (bedeutsam) ist, auch eine praktische Bedeutsamkeit hat. Unterscheiden sich beispielsweise zwei Gruppen von Kindern nach der Durchführung verschiedener sprachförderlicher Interventionen in ihren Mittelwerten (z.B. in einem Untertest zur Grammatik) um nur einen halben Punkt, so kann dieser Unterschied bei großen Gruppengrößen trotzdem statistisch signifikant werden. Wie bedeutsam dieser Unterschied jedoch ist, kann an der (aus den Ergebnissen jeweils zu ermittelnden) Effektstärke abgelesen werden. Auch ein statistisch signifikantes Ergebnis kann nämlich mit einer geringeren Effektstärke einhergehen. Ein bekanntes Effektstärkenmaß in Hinblick auf den Unterschied zwischen zwei Mittelwerten ist Cohen‘s d (1988). Nach Cohen sind Differenzen unter d = 0.2 klein/ vernachlässigbar; ab d = 0.5 spricht man von einem mittleren Effekt und ab d = 0.8 von einem großen Effekt. [Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale: Erlbaum.]

Evaluation. Im Rahmen einer Evaluation wird eine bestimmte Intervention anhand festgelegter Kriterien bewertet. Mit verschiedenen Methoden werden dafür Daten systematisch erfasst und ausgewertet. Die Durchführung der Evaluation sollte stets überprüfbar sein. Die erzielten Ergebnisse, Schlussfolgerungen und Empfehlungen müssen nachvollziehbar auf empirisch gewonnenen qualitativen und/oder quantitativen Daten beruhen. Anhand der Ergebnisse der Evaluation lässt sich einschätzen, ob eine Intervention wirksam ist, die Wirksamkeit in erwarteter Richtung erfolgt oder eine unerwartete bzw. unerwünschte Wirksamkeit auftritt. Erfolgt die Evaluation am Ende einer durchgeführten Intervention, d.h. wurde diese bereits abgeschlossen, so spricht man von einer summativen Evaluation. Es ist jedoch auch möglich, bereits während der Durchführung einer Intervention Zwischenergebnisse zu erfassen. Diese Form wird formative Evaluation genannt. Die formative Evaluation hat zum Ziel, mit Hilfe von Zwischenergebnissen die Intervention bereits im Prozess zu modifizieren und zu optimieren.

Formative Evaluation. Formative Evaluationen weisen eine Informations- und Optimierungsfunktion auf, sie werden in der Regel während der Intervention durchgeführt und liefern Erkenntnisse über Eigenschaften, die Umsetzung, Stärken, Schwächen sowie den Verlauf der Intervention.

Gütekriterien. Gütekriterien sollen gewährleisten, dass im diagnostischen Prozess die Erfassung von Verhaltensweisen, Fähigkeiten oder Merkmalen möglichst eindeutig und genau geschieht. Die Gütekriterien umfassen die Standardisierung (s. Objektivität), die Genauigkeit (s. Reliabilität) und die inhaltliche Korrektheit (s. Validität) dessen, was erfasst wird. Ein Sprachtest sollte beispielsweise inhaltlich den Sprachentwicklungsstand widerspiegeln und nicht kulturelle Unterschiede. Außerdem sollten verschiedene Beobachter mit dem gleichen Verfahren zu gleichen Ergebnissen kommen. Bei Testverfahren werden Hauptgütekriterien und Nebengütekriterien unterschieden. Hauptgütekriterien sind Objektivität, Reliabilität und Validität. Nebengütekriterien sind Normierung, Vergleichbarkeit, Ökonomie und Nützlichkeit.

Graphem-Phonem-Korrespondenz. Die Graphem-Phonem-Korrespondenz meint die Beziehung zwischen den kleinsten bedeutungsunterscheidenden Einheiten des Sprachsystems (Gesprochenes) und den Graphemen, den kleinsten bedeutungsunterscheidenden Einheiten des Schriftsystems (Geschriebenes). Es geht darum, inwieweit eine Zuordnung von Gesprochenem zu Geschriebenem (und umgekehrt) eindeutig möglich ist. Im Zuge des Lesen- und Schreibenlernens kann eine Klippe darin bestehen, dass es für einen gesprochenen Laut verschiedene Möglichkeiten der Verschriftlichung gibt (z.B. für /f/: „fiel“, „viel“ oder für /w/ „Vase“, „Wut“ oder für /k/: „Kinder“, „Choral“, „Clown“).

Hauptgütekriterien. Die Hauptgütekriterien (s. auch Gütekriterien) sind die wichtigsten Indikatoren für die Qualität eines psychometrischen Testverfahrens. Zu unterscheiden sind Objektivität, Reliabilität und Validität.

Informelle Verfahren. Die Gruppe der informellen Verfahren umfasst Verfahren, für die keine empirische Überprüfung von Gütekriterien wie Objektivität, Zuverlässigkeit oder inhaltliche Gültigkeit vorliegt und/oder für die keine Normierung gegeben ist. Diese Verfahren können einen heuristischen Wert haben, d.h. alltagspraktische Einschätzungen zu den erfassten Bereichen liefern, es ist jedoch nichts darüber bekannt, wie objektiv beispielsweise die Einschätzungen sind, die durch sie geliefert werden (d.h. nicht, das die Verfahren den Gütekriterien nicht entsprechen könnten, es ist aber nicht überprüft, deshalb kann darüber keine Aussage getroffen werden). Die Voraussetzung für den Einsatz informeller Verfahren ist – in noch höherem Ausmaß als bei den standardisierten Verfahren – eine kritische Haltung der Anwenderinnen und Anwender zur Interpretation, Revidierbarkeit und Subjektivität der damit erhaltenen Einschätzungen.

Inhaltliche Validität. Inhaltliche Validität gibt an, ob ein Verfahren tatsächlich das misst, was es zu messen vorgibt. Ein anderer Ausdruck hierfür ist die inhaltliche „Gültigkeit“ eines Testverfahrens. Ein diagnostisches Verfahren ist dann inhaltlich valide, wenn die einzelnen Fragen oder Testaufgaben jeweils einen Ausschnitt aus der getesteten Fähigkeit darstellen. Die einzelnen Aufgaben in einem inhaltsvaliden Test oder Beobachtungsverfahren zur Sprachentwicklung müssten beispielsweise Aspekte erfassen, die ein Kind eines bestimmten Alters nach einer bestimmten Spracherwerbstheorie beherrschen sollte (Beispiel: die Annahme ist, dass die meisten vierjährigen Kinder die Vergangenheitsformen von Verben und die Mehrzahlbildung bei Substantiven beherrschen. Die einzelnen Testfragen für Vierjährige müssten dann Mehrzahlbildung und Vergangenheitsformen enthalten, aber nicht Aspekte wie Genitiv, Dativ oder Zukunftsform von Verben, wenn über diese in der Theorie nichts ausgesagt wird). Der Begriff Inhaltsvalidität wird teilweise synonym verwendet mit den Begriffen Augenscheinvalidität oder logische Validität. Die Inhaltsvalidität wird aus logischen oder fachlichen Überlegungen abgeleitet und nicht durch einen numerischen Kennwert angegeben, wie dies beispielsweise bei der kriteriumsbezogenen Validität der Fall ist.

Inhaltsvalidität. (s. Inhaltliche Validität).

Interne Konsistenz. Die interne Konsistenz ist eine Möglichkeit die Reliabilität, d.h. die Zuverlässigkeit oder Genauigkeit eines Verfahrens, anzugeben. Zur Ermittlung der internen Konsistenz wird jede einzelne Frage eines Tests als ein eigenständiger Testteil angesehen. Das Antwortmuster vieler Personen auf eine einzelne Aufgabe wird verglichen mit dem Antwortmuster dieser Personen beim Gesamtergebnis des Tests. Es gibt verschiedene statistische Möglichkeiten, den Zusammenhang zwischen Einzelaufgaben und Gesamttest zu berechnen. Das Ergebnis dieser Berechnungen ist ein Konsistenzkoeffizient. Der bekannteste Konsistenzkoeffizient ist „Cronbachs alpha“.

Interpretationsobjektivität. Interpretationsobjektivität bedeutet, dass verschiedene Beurteiler und Beurteilerinnen zur gleichen Bewertung bezüglich der Bedeutung eines Test- oder Beobachtungsergebnisses kommen sollten (z. B. was eine bestimmte Anzahl von Punkten aussagt). Dies ist nur dann möglich, wenn ein Maßstab zur Einordnung von Ergebnissen vorhanden ist (z.B. Normtabellen). In einem Sprachentwicklungstest sollte beispielsweise eindeutig festgelegt sein, ob ein bestimmtes Ergebnis bedeutet, dass die Sprachentwicklung eines Kindes verzögert ist oder nicht.

Inter-Rater-Reliabilität. Die Inter-Rater-Reliabilität ist trotz ihres Namens ein Maß für die Objektivität eines diagnostischen Verfahrens. Sie gibt an (z.B. als Intra-Klassen-Korrelation), in welchem Ausmaß verschiedene Testanwenderinnen und -anwender oder auch Beobachterinnen und Beobachter bei einer unabhängigen Beobachtung (oder Testauswertung) zu gleichen Ergebnissen gelangen.

Intra-Klassen-Korrelation. Bei der Intra-Klassen-Korrelation (kurz ICC, für engl. intra class correlation) handelt es sich um ein Maß, mit dem die Stärke von Beobachterübereinstimmungen beschrieben werden kann. Die Intra-Klassen-Korrelation kann dann berechnet werden, wenn zwei oder mehr als zwei Beobachterinnen und Beobachter vorhanden sind oder mehrere Zeitpunkte der Beobachtung verglichen werden sollen. Nehmen zum Beispiel mehrere pädagogische Fachkräfte zu mehreren Testzeitpunkten eine Beobachtung mit einem Verfahren beim gleichen Kind vor, kann mit der Intra-Klassen-Korrelation gemessen werden, ob die Fachkräfte zu ähnlichen Beobachtungsergebnissen gelangen. Die Intra-Klassen-Korrelation ist damit ein Indikator für die Reliabilität eines Beobachtungssystems, streng genommen handelt es sich jedoch um ein Maß für die Objektivität (da es darum geht, inwieweit verschiedene Personen zu gleichen Ergebnissen kommen). Eine Beobachtung ist dann objektiv, wenn die Unterschiede zwischen den verschiedenen Beobachterinnen und Beobachtern im Hinblick auf die gleiche Beobachtung klein sind. Dies zeigt sich in der Intra-Klassen-Korrelation an einem hohen Wert der Korrelation. Bei Berechnung der Korrelation werden als Orientierung häufig folgende Abstufungen angegeben:

Werte bis .2 sprechen für eine sehr geringe Korrelation.
Werte bis .5 sprechen für eine geringe Korrelation.
Werte bis .7 sprechen für eine mittlere Korrelation.
Werte bis .9 sprechen für eine hohe Korrelation.
Werte über .9 sprechen für eine sehr hohe Korrelation.

Um jedoch die genaue Höhe einer Korrelation interpretieren zu können, müssen auch die jeweilige Fragestellung sowie die damit verbundenen Handlungsfolgen und die Größe der untersuchten Stichprobe einbezogen werden (ab wann ist ein Zusammenhang z.B. praktisch bedeutsam? Würde bereits ein geringer Zusammenhang eine Handlungsfolge rechtfertigen?). Bei großen Stichproben kann es nämlich sein, dass bereits sehr geringe Korrelationen rein statistisch bedeutsam (signifikant) werden.

Item(s). Der Begriff Item meint die einzelnen Bestandteile eines Tests oder Beobachtungsbogens. Dies können Testaufgaben oder Fragen zu einem bestimmten Bereich sein, der getestet oder beobachtet werden soll. So wird in der Regel z.B. der Bereich „Grammatik“ nicht nur mit einer einzelnen Frage (einem einzelnen Item) erfasst sondern mit mehreren.

Itemschwierigkeiten. Die Itemschwierigkeit gibt an, wie viel Prozent aller Personen einer (Normierungs-) Stichprobe ein bestimmtes Item in einem Test richtig lösen können. Damit enthält die Itemschwierigkeit eine Aussage über die Wahrscheinlichkeit, mit der ein Item richtig gelöst wird. Die Berechnung der Itemschwierigkeiten trägt auch dazu bei, in einem Test solche Items auszulesen, die viel zu schwierig oder viel zu leicht sind, d.h. nahezu von keiner bzw. allen Personen gelöst werden können. Solche Items sind zur Unterscheidung zwischen verschiedenen Personen nicht brauchbar und werden daher häufig bei der Entwicklung von Testverfahren ausgeschlossen. Der Wert für die Itemschwierigkeit wird als Zahl zwischen 0 und 1 angegeben, wobei hier eine Itemschwierigkeit von p = 0 bedeutet, dass keine Person das Item richtig lösen konnte. Ein Wert von p = 1 zeigt an, dass alle getesteten Personen das Item richtig lösten und es somit sehr leicht ist. Insgesamt sind für die Itemschwierigkeit Werte zu empfehlen, die in der Mitte liegen und somit für Items sprechen, die weder zu leicht noch zu schwer sind.

Konfidenzintervall. (s. Vertrauensintervall).

Konstruktvalidität. Die Konstruktvalidität gibt an, ob ein diagnostisches Verfahren inhaltlich tatsächlich das erfasst, was es zu messen beansprucht. Wird der Begriff sehr weit gefasst, so fallen unter Konstruktvalidität alle Arten der Validität, (z.B. Kriteriumsvalidität, Inhaltsvalidität, konvergente und diskriminante Validität). Ein engerer Begriff der Konstruktvalidität umfasst dagegen nur einige statistisch ermittelte Validitätsarten, wie die konvergente Validität und die diskriminante Validität.

Konvergente Validität. Die konvergente Validität gehört zur Konstruktvalidität und gibt über einen statistischen Kennwert an, wie gut ein Testverfahren tatsächlich das misst, was es zu messen beansprucht. Zur Ermittlung der konvergenten Validität werden die Ergebnisse eines Testverfahren verglichen mit den Ergebnissen eines anderen Testverfahrens, das inhaltlich das gleiche Merkmal erfasst. So könnte beispielsweise verglichen werden, wie eng die Ergebnisse zweier verschiedener Sprachstandsverfahren zusammen hängen.

Korrelation. Die Korrelation ist ein statistisches Zusammenhangsmaß. Sie sagt aus, wie stark ein Zusammenhang zwischen zwei Bereichen ist und in welche Richtung er geht. Dabei bewegen sich die Werte zwischen -1 und +1. Werte nahe Null sagen aus, dass kein (linearer) Zusammenhang besteht. Werte nahe 1 bedeuten, dass ein starker Zusammenhang besteht. Positive oder negative Werte sagen etwas über die Richtung des Zusammenhangs aus. Negative Werte bedeuten eine gegenläufige Richtung des Zusammenhangs im Sinne von „je weniger, desto mehr“ (Beispiel: Untersucht wird der Zusammenhang zwischen (a) Fehlern beim Vorlesen in einem Lesetest A und (b) der erzielten Punktezahl in einem Deutschtest in der Schule. Das Ergebnis zeigt: je weniger Fehler beim Vorlesen in einem Lesetest A, desto mehr Punkte im Deutschtest). Positive Werte bedeuten gleichläufige Zusammenhänge im Sinne von „je mehr, desto mehr“ (Beispiel: (a) hohe Werte in einem Test zur Sprachproduktion treten gemeinsam auf mit (b) hohen Werten in einem Test zum Wortschatz).

Kriterienvalidität. Die kriterienbezogene Validität gibt den Zusammenhang an zwischen dem Ergebnis eines Tests und einem Kriterium (z.B. Schulnote im Fach Deutsch). Die Testergebnisse sollten aufgrund der inhaltlichen Ausrichtung des Tests mit dem Kriterium zusammenhängen. Die Ergebnisse eines Tests zur Leseflüssigkeit und –genauigkeit könnten beispielsweise verglichen werden mit der Einschätzung der Lesefähigkeit für dieselben Schülerinnen und Schüler durch Lehrkräfte oder mit der Deutschnote der Schülerinnen und Schüler. Um die Stärke des Zusammenhangs zwischen Test und Kriterium zu ermitteln werden statistische Zusammenhangsmaße wie die Korrelation berechnet. Eine Form der Kriterienvalidität ist die Prognostische Validität (auch Vorhersagevalidität)

Kriteriumsvalidität. (s. Kriterienvalidität).

Literacy. Literacy ist ein dem Englischen entnommener Begriff, für den es keine genaue Entsprechung im Deutschen gibt. Er kann in etwa mit „Schriftsprachlichkeit“ übersetzt werden, ist jedoch als umfassenderer Sammelbegriff zu verstehen, der die Bereiche Sprache, Schrift, Erzähl- und Lesekultur beinhaltet.
Die Literacy-Erfahrung beginnt in der frühen Kindheit mit dem Zuhören von Erzählungen und vorgelesenen Geschichten, ersten Erzählversuchen, dem gemeinsamen Bilderbuch-Betrachten von Kindern und Erwachsenen, Beschreibungen von Situationen, bis hin zu den ersten Versuchen, den eigenen Namen zu schreiben. Später wird der Erfahrungsbereich durch den selbständigen Umgang der Kinder mit der Schriftsprache erweitert. Eine umfassende Literacy-Erfahrung gilt als eine wichtige Komponente beim erfolgreichen Erwerb von Sprach- und Schreibkompetenz.

Logische Validität. (s. inhaltliche Validität)

Nebengütekriterien. Nebengütekriterien sind zusätzlich zu den Hauptgütekriterien Indikatoren für die Beurteilung der Qualität eines (psychometrischen) Testverfahrens. Zu den Nebengütekriterien gehören die Normierung, Vergleichbarkeit, Ökonomie und Nützlichkeit. Ein Test ist vergleichbar, wenn ein oder mehrere Parallelformen oder andere Tests existieren, die ähnliche Inhaltsbereiche erfassen. Parallelformen sind wünschenswert, wenn eine Messung in einem kurzen Abstand an denselben Kindern wiederholt werden soll oder wenn es sich um einen Gruppentest handelt, um die Gefahr des „Abguckens“ zu minimieren. Ein Test ist ökonomisch, wenn er in kurzer Zeit durchführbar und wenig aufwändig ist in Bezug auf Material, Durchführungsmodalität (z.B. in der Gruppe) und Auswertung. Die Nützlichkeit gibt an, inwieweit der Test aus praktischen Erwägungen heraus überhaupt nötig ist oder ob bereits andere Verfahren vorliegen, die das Gleiche messen. Ist dies der Fall, muss begründet werden, welchen Zusatznutzen (welche Vorteile) das Verfahren hat.

Median. Beim Median handelt es sich um einen Wert in der Statistik, der Werteverteilungen bzw. Stichproben sortiert nach ihrer Größe in zwei Hälften teilt: Die Zahlen in der ersten Hälfte sind somit kleiner bzw. gleich dem Medianwert, die Zahlen der anderen Hälfte größer bzw. gleich dem Medianwert. Beinhaltet eine Werteverteilung beispielsweise die Werte 1, 5, 99, 3 und 6, ist die Zahl 5 der Median, da es sich um die mittlere Zahl handelt, sobald man die Werte nach ihrer Größe sortiert (1, 3, 5, 6, 99).

Normierung. Normierung bedeutet, dass für die Ergebnisse eines diagnostischen Verfahrens ein Bezugssystem vorliegt, das die Einordnung eines individuellen Ergebnisses eines Kindes ermöglicht in Bezug darauf, ob das Ergebnis im durchschnittlichen- über- oder unterdurchschnittlichen Bereich liegt. Normen sollten aktuell sein (nicht älter als acht Jahre) und für verschiedene Personengruppen vorliegen (beispielsweise gestaffelt nach Alter, Herkunftsland, Geschlecht). Für die Normierung sollte eine möglichst repräsentative und möglichst große Gruppe von Personen (die Normierungsstichprobe) mit einem diagnostischen Verfahren untersucht worden sein. Im Minimalfall sollten etwa 200 Personen je verschiedener Personengruppe in der Normierungsstichprobe untersucht worden sein.

Normtabelle. Eine Normtabelle dient dazu, die Test- oder Beobachtungsergebnisse einer einzelnen Person mit den Ergebnissen anderer Personen zu vergleichen, um einschätzen zu können, ob ein Ergebnis im durchschnittlichen, über- oder unterdurchschnittlichen Bereich liegt. Die Normtabelle sollte deshalb möglichst repräsentativ sein für die Person, deren Ergebnis verglichen wird. Das bedeutet, dass die Werte in der Normtabelle an einer mit der Person übereinstimmenden Gruppe ermittelt worden sein sollten, beispielsweise bezogen auf das Alter, Geschlecht oder einen möglichen Migrationshintergrund. Die Werte in der Normtabelle sollten außerdem auf einer ausreichend großen Anzahl von Beobachtungen beruhen (mindestens 200 Personen je Vergleichsgruppe).

Normwerte. Ein Normwert dient dazu, das Ergebnis eines einzelnen Kindes in Bezug zu einer Gruppe zu setzen (z.B. Kinder gleichen Alters). Bei vielen Diagnosemethoden werden für das Zutreffen von Beobachtungen oder für korrekt beantwortete Testfragen Punkte vergeben. Die Anzahl der zu vergebenden Punkte ist jedoch von Verfahren zu Verfahren sehr unterschiedlich. Außerdem können gleiche Punktwerte in ein- und demselben Verfahren für ein 7-jähriges Kind eine ganz andere Bedeutung haben als für ein 8-jähriges. Um solche Punktwerte (sog. Rohwerte) sinnvoll interpretieren zu können und in Beziehung zu den Punktwerten anderer Kinder gleichen Alters und beispielsweise sozialen Hintergrundes setzen zu können, bedarf es einer Normierung. Im Zuge einer Normierung werden Rohwerte so umgerechnet, dass sie auf einer einheitlichen Skala (Normwerteskala) abgelesen werden können (z.B. in Prozentränge oder T-Werte).

Objektivität. Die Objektivität gibt an, ob die Ergebnisse eines diagnostischen Verfahrens unabhängig von der Person sind, die das Verfahren durchführt. Bei Anwendung des gleichen Verfahrens an der gleichen Person sollten verschiedene Untersucher und Untersucherinnen zu übereinstimmenden Ergebnissen gelangen. Ein diagnostisches Verfahren sollte deshalb Angaben darüber enthalten, wie objektiv es ist. Zu unterscheiden sind die Durchfuehrungsobjektivität, die Auswertungsobjektivität und die Interpretationsobjektivität.

Operationalisierung. Bestimmte Eigenschaften können nicht unmittelbar beobachtet werden (z.B. Intelligenz, Aufmerksamkeit, Offenheit, Engagiertheit). Solche Eigenschaften kommen jedoch in der Regel durch bestimmte Verhaltensweisen zum Ausdruck, die ihrerseits direkt beobachtet werden können. Wenn „Aufmerksamkeit“ beobachtet werden soll, macht es beispielsweise wenig Sinn eine Beobachtungsfrage so zu formulieren, dass sie den Ausdruck „aufmerksam“ enthält („Das Kind ist aufmerksam“), sondern nach Indikatoren für Aufmerksamkeit zu fragen (z.B. als Indikator für gezielte Aufmerksamkeit: das Kind richtet seine Augen über einen Zeitraum von einigen Minuten auf einen bestimmten Gegenstand / beschäftigt sich mehrere Minuten mit einer Tätigkeit).

Paralleltestreliabilität. Paralleltestreliabilität bedeutet, dass die Zuverlässigkeit oder Genauigkeit eines Verfahrens (Reliabilität) ermittelt wird, indem dieselben Personen kurz nacheinander zwei Varianten des gleichen Tests bearbeiten (ähnlich „A“- und „B“-Versionen einer Klassenarbeit). Beide Testvarianten enthalten sehr ähnliche Aufgaben. Die Ergebnisse der Testbearbeitungen werden miteinander in Beziehung gesetzt. Da beide Testvarianten das gleiche Merkmal erfassen sollen und die gleichen Aufgabentypen enthalten, sollten sich hohe Zusammenhänge zwischen den beiden Testvarianten zeigen, was rechnerisch über eine Korrelation („r“) ermittelt wird.

Phonologische Bewusstheit. Unter phonologischer Bewusstheit versteht man die Fähigkeit, die Sprache in ihrer Struktur, d.h. in ihren Bestandteilen wie Worten, Silben oder einzelnen Lauten, zu erfassen. Ihr wird eine große Bedeutung beim Schreiben- und Lesenlernen beigemessen. Unterschieden wird zum einen die Phonologische Bewusstheit im engeren Sinne: Es geht hierbei um die Wahrnehmung der einzelnen Laute in der gesprochenen Sprache (sog. Phoneme). Das sind entweder einzelne Buchstaben, oder auch Buchstabenfolgen, die eine Lauteinheit ergeben (z.B. sch, ch, pf). Zum anderen wird unterschieden nach der Phonologischen Bewusstheit im weiteren Sinne: Unter diesem Begriff wird die Wahrnehmung größerer Einheiten in der gesprochenen Sprache verstanden. Damit sind Silben innerhalb von Worten, Worte an sich, der Klang der Wörter beim Reimen etc. gemeint.

Phonologische Rekodierfähigkeit. Phonologische Rekodierfähigkeit meint die Fähigkeit, schriftliche Symbole in lautsprachliche Entsprechungen zu übersetzen („vom Buchstaben zum Ton“). Eine wesentliche Voraussetzung für das kompetente Lesen ist, dass Buchstaben-Laut-Verbindungen möglichst schnell (automatisiert) aus dem Gedächtnis abgerufen werden können.

Prädiktor. Als Prädiktor wird in der Statistik eine Variable bezeichnet, mit deren Hilfe die Ausprägung eines Merkmals vorhergesagt werden kann. So könnte beispielsweise untersucht werden, ob das Merkmal „Lesefähigkeit in Deutsch“ vorhergesagt werden kann aus der Herkunft eines Kindes. Die Herkunft (z.B. Migrationshintergrund) würde dann als Vorhersagefaktor oder Prädiktor für die Ausprägung der Lesefähigkeit in Deutsch benutzt.

Prognostische Validität. Die prognostische Validität gibt an, wie gut ein Testergebnis eine zukünftige Entwicklung vorhersagen kann. Sie ist eine Form der Kriteriumsvalidität, bei der ermittelt wird, ob das Testergebnis mit einem zeitlich später erfassten Kriterium zusammenhängt. Die prognostische Validität sollte deshalb bei Verfahren angegeben sein, die aufgrund ihrer Ergebnisse Vorhersagen über eine spätere Entwicklung machen. Dies ist beispielsweise der Fall beim BISC (Bielefelder Screening zur Früherkennung von Lese-Rechtschreibschwierigkeiten). Mit dem BISC wird u.a. die phonologische Bewusstheit von Vorschulkindern getestet und aus den Ergebnissen werden Prognosen für die spätere Schriftsprachentwicklung abgeleitet. Rechnerisch wird die prognostische Validität über statistische Zusammenhangsmaße berechnet. Berücksichtigt werden hier verschiedene Maße, wie die Fehler- und Trefferquote des Verfahrens in Bezug auf die Vorhersage aber auch, um wie viel besser die Vorhersage mit Hilfe des Tests im Vergleich zu einer zufälligen Vorhersage möglich ist.

Prozentrang. Prozentränge stellen eine Möglichkeit der Normierung von Rohwert dar. Sie geben an, wie viel Prozent der Personen aus der Normierungsstichprobe genauso gut oder schlechter abgeschnitten haben, als die Person, die mit der Normierungsstichprobe verglichen wird. Wird beispielsweise in einem Sprachentwicklungstest in einer Normtabelle für einen bestimmten erzielten Testrohwert ein Prozentrang von 75 angegeben, so bedeutet dies, dass 75 Prozent der Kinder aus der Normstichprobe gleich gute oder schwächere Ergebnisse erzielt haben, während etwa 25 Prozent der Kinder aus der Normierungsstichprobe bessere Leistungen erzielt haben.

Prozentrangband. In Prozentrangtabellen kann man einen Rohwert, also den direkt aus dem Test abzulesenden Punktwert, in einen Normwert, in diesem Fall den Prozentrang, überführen. Man geht davon aus, dass aufgrund von Messungenauigkeiten ein bestimmter erreichter Punktwert nicht exakt einen bestimmten Prozentrang repräsentiert, sondern sich in einem definierten Prozentrangbereich befinden wird. Um solche Messfehler zu berücksichtigen, liegen in einigen Messverfahren sog. Prozentrangbänder vor, die diesen Schwankungsbereich widerspiegeln. Beispiel: Rohwerten von 50 – 52 wird in der Normtabelle ein Prozentrang von 70 zugewiesen. Der „wahre“ Prozentrang kann nun in einem gewissen Bereich schwanken, der im Prozentrangband angegeben ist. Das Prozentrangband könnte beispielsweise von Prozentrang 65 bis 75 reichen.

Reliabilität. Unter Reliabilität versteht man die Zuverlässigkeit eines Messinstruments. Ein Test ist dann reliabel, wenn er ein Merkmal genau, d.h. mit nur geringem Fehler misst, wenn also der gemessene Wert dem tatsächlichen Wert bzw. der tatsächlichen Ausprägung eines Merkmals entspricht. Die Reliabilität kann auf verschiedene Arten ermittelt werden, beispielsweise als interne Konsistenz oder mit Hilfe einer Wiederholungsmessung mit demselben Test an denselben Personen in einem gewissen zeitlichen Abstand (vgl. Retestreliabilität). Eine hohe Reliabilität liegt vor, wenn beispielsweise bei einer Wiederholungsmessung eines Tests, der ein konstantes Merkmal erfasst, unter gleichen Bedingungen bei beiden Messungen ein sehr ähnliches Ergebnis erzielt wird. Jeder psychometrisch konstruierte Test ist mit einem Messfehler behaftet, so dass es keine perfekte Reliabilität geben kann. Der Test sollte aber so konstruiert sein, dass der Messfehler möglichst gering ausfällt.

Retestreliabilität. Retestreliabilität bedeutet, dass die Zuverlässigkeit oder Genauigkeit eines Verfahrens mit Hilfe einer Wiederholungsmessung (Retest) ermittelt wird. Es wird überprüft, ob ein Messinstrument, das ein konstantes Merkmal misst, zu zwei verschiedenen Zeitpunkten zu dem gleichen Ergebnis führt. Beispiel: Die Messung mit einem Maßband kommt zu unterschiedlichen Zeitpunkten bei einem Gegenstand, der seine Form und Größe nicht verändert, immer zu dem gleichen Ergebnis, das Maßband hat damit eine hohe Reliabilität. Wird die Größe des Gegenstandes dagegen nach Augenmaß beurteilt, sind unterschiedliche Ergebnisse zu erwarten, was eine niedrige Retestreliabilität bedeutet.

Rohwert. Viele psychologische Tests bestehen aus mehreren Aufgaben. Bei der Auswertung kann man pro Aufgabe einen bestimmten Punktwert (=Rohwert) vergeben. Die einzelnen Punktwerte lassen sich zu einem Gesamtwert zusammenfassen. Um diesen Gesamtrohwert interpretieren und das Ergebnis einschätzen zu können, muss er in einen Normwert (s. auch Normtabelle) umgewandelt werden. Dadurch ist das Ergebnis in einen Vergleich zur Normierungsstichprobe zu setzen und somit interpretierbar. Beispiel 1: Ein Test besteht aus Aussagen, die mit Ja oder Nein auf ihre Wahrheit überprüft werden sollen. Pro richtiger Antwort wird ein Punkt vergeben. Die Punkte werden zusammen gerechnet und die Endsumme ergibt den Gesamtrohwert. Beispiel 2: Ein Test besteht aus Aussagen, die auf einer Skala von 1-5 auf ihr Zutreffen eingeschätzt werden sollen. Die Werte zwischen eins und fünf sind die Punktwerte. Die Skalenwerte der einzelnen Aufgaben werden zusammengerechnet und die Endsumme ergibt den Gesamtrohwert. Beispiel 3: In einem Test sollen so viele Aufgaben wie möglich richtig bearbeitet werden. Pro richtig bearbeiteter Aufgabe wird ein Punkt vergeben. Die Anzahl der korrekt bearbeiteten Aufgaben wird zusammen gerechnet. Die Endsumme ergibt den Gesamtrohwert.

Screening. Ein Screening ist ein Kurztestverfahren, das dazu dient, Personen mit bestimmten Merkmalen aus einer Gruppe zu identifizieren oder die Ausprägung eines bestimmten Merkmals in einer Gruppe abzuschätzen. Ein Screening ist in kurzer Zeit durchführbar, es darf höchstens 10 bis 15 Minuten dauern. Eine detaillierte Analyse einer bestimmten Kompetenz oder Schwäche ist mit einem Screening nicht möglich, es können beispielsweise keine Förderempfehlungen für bestimmte Bereiche abgeleitet werden. Das Screening kann aber als Entscheidungshilfe genutzt werden, ob vertiefende Untersuchungen bestimmter Kompetenzen notwendig sind. Beispiel: Ein Lehrer oder eine Lehrerin bekommt eine neue fünfte Klasse. Mit einem Lese-Screening kann er oder sie sich schnell ein Bild über den Leistungsstand der Schülerinnen und Schüler im Lesen machen. Bei Schülerinnen und Schülern, die verglichen mit einer Normierungsstichprobe sehr schwache Leistungen im Screening zeigen, ist eine weitere Abklärung nötig, ob und in welchen Bereichen besonderer Unterstützungsbedarf vorliegt.

Speedtest. Ein Speedtest ist ein Testverfahren, bei dem innerhalb einer vorgegebenen Zeit, oft nur wenige Minuten, so viele Aufgaben wie möglich bearbeitet werden sollen. Nach Ablauf der vorgegebenen Zeit fordert der Testleiter oder die Testleiterin die Getesteten auf, die Bearbeitung zu beenden.

Summative Evaluation. In summativen Evaluationen erfolgt eine zusammenfassende Bewertung der Effektivität und Effizienz einer Intervention nach deren Abschluss.

Trennschärfe. Mit der Trennschärfe wird angegeben, wie gut ein einzelnes Item eines Tests das Gesamtergebnis dieses Tests repräsentiert. Die Trennschärfe ermöglicht eine Einschätzung darüber, wie gut ein einzelnes Item zwischen Personen mit niedrigeren und höheren Merkmalsausprägungen (z. B. Sprachleistungen) differenziert. (Das Item wird also daraufhin untersucht, ob es nur von Personen gelöst wird, die in einem Sprachtest einen hohen Gesamtwert erzielen, oder auch von solchen, die im Gesamttest niedrige Werte erzielen). Um dies herauszufinden, wird der statistische Zusammenhang des Items mit dem Gesamtergebnis des Tests berechnet. Dabei gilt: Je höher die Trennschärfe, desto besser differenziert das Item zwischen Personen mit verschiedenen Testergebnissen. Dabei wird eine Trennschärfe von weniger als .30 eher als gering, eine Trennschärfte von .30 – .50 als mittel und eine Trennschärfe ab .50 als hoch angesehen.

T-Werte. Für die Bewertung der Leistung eines Kindes ist ein Vergleichsmaßstab notwendig, d.h. man möchte die Leistung des Kindes mit der Leistung anderer Kinder vergleichen können. Ein T-Wert ist ein solcher Vergleichsmaßstab. Bei vielen gängigen Testverfahren kann der Rohwert einem T-Wert zugeordnet werden. Ein T-Wert von 50 bildet dabei die Mitte, zwischen 40 und 60 ist der Normalbereich. Erzielt ein Kind einen T-Wert < 40, ist die Leistung unterdurchschnittlich. Ein T-Wert > 60 kennzeichnet eine überdurchschnittliche Leistung.

Validität. Die Validität ist ein Gütemerkmal eines Tests. Sie beschreibt, ob der Test inhaltlich das messen kann, was er zu messen vorgibt (z.B. die Sprachfähigkeit). Die Validität wird auch als die Gültigkeit eines Tests bezeichnet. Sie kann auf verschiedene Weise bestimmt werden, daher gibt es verschiedene Arten der Validität (z.B. Prognostische Validität, kriteriumsbezogene Validität, Konstruktvalidität). Die Bestimmung der Validität wird von vielen Autoren als die größte Herausforderung bei der Entwicklung eines Tests angesehen.

Vertrauensintervall. Das Vertrauensintervall (Konfidenzintervall) gibt einen Wertebereich an, in dem sich mit einer vorab festgelegten Wahrscheinlichkeit, ein im Test ermittelter Wert befindet. Wird beispielsweise ein Kind mit einem standardisierten Rechtschreibtest geprüft, so erhält man für das Kind einen bestimmten standardisierten Wert (z.B. T-Wert). Es ist jedoch davon auszugehen, dass Messfehler das Ergebnis beeinflusst haben können(z.B. war das Kind an dem Tag etwas müde). Das bedeutet, dass der gemessene (empirische) Wert nur annähernd dem „wahren“ Wert des Kindes entspricht. Mit Hilfe einer Schätzung lässt sich jedoch berechnen, in welchem Bereich der „wahre“ Wert des Kindes mit einer vorab festgelegten Wahrscheinlichkeit liegt. Üblicherweise werden hier 95%- oder 99%-Wahrscheinlichkeiten verwendet. Die Berücksichtigung des Vertrauensintervalls bei der Interpretation von Testwerten ist wichtig, da damit deutlich wird, dass der ermittelte Testwert eines Kindes immer nur eine Schätzung darstellt.

Vorhersagevalidität. (s. Prognostische Validität).

Wartekontrollgruppe. Wenn in einer Studie überprüft werden soll, ob eine bestimmte Maßnahme bei einer bestimmten Gruppe zur Verbesserung eines angezielten Bereiches führt (z.B. Verbesserung der Sprachförderkompetenz pädagogischer Fachkräfte durch eine bestimmte Schulung), reicht es nicht aus, nur die Veränderung in der Gruppe zu betrachten, die diese Maßnahme erhält. Um aussagekräftige Vergleiche anstellen zu können, sind in der Regel sogenannte Kontrollgruppen nötig. Eine Kontrollgruppe kann an einer anderen Maßnahme teilnehmen, oder erhält gar keine Maßnahme. Da letzteres oft ethisch bedenklich wäre, kann eine Kontrollgruppe auch zeitversetzt die Maßnahme erhalten, deren Wirksamkeit untersucht werden soll. Diese Gruppe wartet also zunächst auf die Maßnahme und wird daher als Wartekontrollgruppe bezeichnet. An allen Gruppen wird jedoch nach derselben Zeit überprüft, wie und ob sich ein vorher festgelegter Indikator des Bereiches, auf den die Maßnahme zielt, verändert hat.
Beispiel: Es soll überprüft werden, ob eine Schulung A die Sprachförderkompetenz von Fachkräften verbessert. Untersucht werden drei Gruppen: In Gruppe 1 nehmen 15 Personen an Schulung A teil, die sechs Monate dauert. In Gruppe 2 (Kontrolle) nehmen 15 Personen an einer Schulung B teil, die ebenfalls sechs Monate dauert. Gruppe 3 ist eine Wartekontrollgruppe von 15 Personen, die eine Schulung erst nach Ablauf der sechs Monate erhält. In allen drei Gruppen wird jedoch drei und sechs Monate nach Beginn der Schulungen in Gruppe 1 und 2 überprüft, ob und wie die Sprachförderkompetenzen der Fachkräfte sich verändert haben.

Z-Werte. Ein z-Wert ist ein standardisierter Wert, der sich aus einem Rohwert berechnen lässt. Der z-Wert erlaubt es, Aussagen über die relative Position eines Wertes im Vergleich zu anderen Werten zu treffen. Beispielsweise kann mit Hilfe eines z-Wertes die Leistung eines Kindes mit der Leistung von anderen Kindern verglichen werden. Entspricht die Leistung eines Kindes dem mittleren Wert der Vergleichsstichprobe, so liegt der z-Wert dieses Kindes bei 0. Werte zwischen-1und +1 bilden den sogenannten Normbereich (Normalbereich).